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Комбінаторна оцінка впливу зменшення 
інформаційного покриття класів 

на узагальнюючу властивість 

ПХМ алгоритмів класифікації 


У статті запропоновано комбінаторний підхід до визначення впливу зменшення розмірності класів на 
ймовірність правильного розпізнавання при застосуванні 1ЇММ вирішуючого правила. Результати 
розпізнавання для кожного контрольного об'єкта вважаються відомими до пониження розмірів класів 
бази даних. Розв'язано задачу визначення ймовірності того, що правильне розпізнавання збережеться 
після пониження розмірності класів, а неправильне стане правильним. 


Вступ 


У процесі розв'язування задач розпізнавання, а також при розробці відповідних 
алгоритмів доцільно зменшувати складність математичних моделей алгоритмів 
розпізнавання з метою досягнення більшої ефективності при застосуванні цих 
алгоритмів на практиці. Такого можна досягти шляхом вибору підмножини 
найбільш інформативних ознак, застосування більш простих класифікаторів, а також 
зменшення розмірності класів еталонів. На сьогоднішній день проблема вибору 
найбільш інформативних ознак порівняно добре досліджена |1-4). Суть селекції 
найбільш інформативних ознак полягає у застосуванні певного критерію, який 
повинен максимізувати (мінімізувати) певний показник при використанні навчаючої 
вибірки. Задача екстремалізації показника критерію вирішується на основі 
узагальненого ковзаючого контролю (сго85-УаПЛайоп іе5і) |5- 7), який продовжує 
вдосконалюватися у даний час. Досліджуються також підходи, які враховують вплив 
кожної ознаки на внутрішню композицію алгоритму, що дає змогу більш ефективно 
визначати вплив сукупності ознак на узагальнюючу властивість алгоритмів 
розпізнавання (2). Надалі буде розглянута задача розпізнавання з класами, що 
попарно не перетинаються, а процес навчання здійснюватиметься на основі 
прецедентної інформації |8). У подібних випадках часто застосовують класифікатори 
на основі функції відстані (метричні класифікатори). В загальному ними є КММ 
класифікатори, зважені ЮММ класифікатори та класифікатори з використанням 
потенційних функцій |9|. Ці класифікатори більш прості і швидкісні порівняно з 
іншими. Сумісна процедура оптимізації метрики та найбільш інформативного 
набору ознак досліджена на основі різних критеріїв в (10), (111, а в 11) розроблено 
підхід для порівняння ІМ та КМ класифікаторів. В |10)| на основі послідовного 
аналізу запропоновано підхід до визначення мінімального розміру класу, що 
забезпечує задані помилки класифікації 1-го та 2-го родів. 

Необхідно відзначити, що дослідження, на які орієнтована дана робота, 
стосується здебільшого біометричних СР, хоча розроблювані підходи мають 
достатньо загальний характер, щоб їх застосовувати 1 для видів СР. 
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Формулювання задачі 


Задача пониження інформаційного покриття класів є цільовою задачею. По-перше, 
при зменшенні інформаційного покриття класів підвищується швидкість процесу 
розпізнавання, а значить, і ефективність роботи відповідної системи. По-друге, 
зменшення інформаційного опису класів дає можливість зменшити вплив такого 
негативного явища, як перенавчання. В класичному розумінні під перенавчанням 
розуміється різниця оцінок результатів розпізнавання на контрольній вибірці і під 
час навчання. По-третє, при пониженні інформаційного покриття класів змен- 
шується інформаційне покриття чужих класів, що виникають лише під час процесу 
розпізнавання 1 заважають його успішному здійсненню. Може трапитися ситуація, 
коли при пониженні інформаційного покриття результати правильного роз- 
пізнавання будуть кращими, ніж до його пониження. Це пояснюється тим, що при 
зменшенні інформаційного опису класів-еталонів з'являється достатньо велика 
ймовірність того, що образи-еталони з чужих класів, які призводили до негативних 
результатів розпізнавання, будуть вилучені з бази даних. Вказаний ефект також 
призводитиме до перенавчання алгоритму розпізнавання. Тому для побудови більш 
точних оцінок імовірності правильного розпізнавання необхідно проводити усеред- 
нення ймовірностей такого розпізнавання для різних розмірів класів еталонів. 

При пониженні інформаційного покриття класів-еталонів можливі два варіанти. 
Перший передбачає правильне, а другий неправильне розпізнавання до пониження 
інформаційного покриття і потребують оцінки його успішності після такого 
пониження. Оцінка правильності розпізнавання після пониження інформаційного 
покриття обумовлюється співвідношенням вказаних випадків. 


Формалізація та постановка задачі 


Нехай Х - простір об'єктів; У - множина імен класів; у :Х -» У - цільова 
функція, значення якої відомі лише на об'єктах скінченої навчаючої вибірки 
Х'«(крудаа ХхУ, у, зу"(х,) 15). У базі даних існують класи еталонів С,, 
ізіп, причому 5; 51 С, | - розміри класів. Передбачається, що розміри 5; всіх класів 
однакові і рівні 5. Оскільки існує вибірка контрольних образів Ї/ , що подаються на 


розпізнавання, то загальна кількість образів, що беруть участь у процесі розпізнавання, 
дорівнюватиме пжь-|ГУ |. Нехай оцінена частота помилок алгоритму класифікації 


й р 1 й 
аз ш(Х') на навчаючій вибірці Х'є Х": у(а, /) з подано Га(и) є у (и)). Задача 
полягає в оцінюванні величини У (а, /) з лій (и) у (и)| при пониженні 


М ; аа ї . 
інформаційного покриття | С; | класів-еталонів, де а «- Ш(Х ) - алгоритм, побудований на 


основі вибірки розміру Ї. Як алгоритм класифікації використаємо найбільш простий 
серед метричних алгоритмів 1ММ алгоритм. При такій постановці задачі найбільш 
придатним підходом, який можна використати для її вирішення, є комбінаторний 
підхід. Очевидно, що в кожному конкретному випадку пониження інформаційного 
покриття класів буде проводитись не обов'язково оптимальним чином, однак 
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загальна статистика всіх можливих понижень класів та результатів таких понижень 
дасть відповідь на питання про ефективність пониження інформаційного покриття 
класів-еталонів у цілому. 


Розв'язання задачі 


Представимо дані, що подаються на класифікатор а, у вигляді двійкової 
послідовності 40,11), посортованої за мінімумом відстаней об'єктів бази даних від 
тестового об'єкта, де І ставляться у відповідність образам, які підтримують правильне 
розпізнавання (образи свого класу), а 0 - образам, які заважають такому розпізнаванню 
(образи чужих класів). Приклад такої послідовності поданий на рис. 1. 


І111111111000111001111000111...1111...000... 
о о 


кн 
/ то ки то ко то б Кк т 


п п 
кт) 
Рисунок І - Модель розпізнавання при заданні початкового розміру классу 
у вигляді двійкової послідовності 


Із наведеного рисунка видно, що послідовність образів, які підтримують 
розпізнавання, має розмірність /- К. Однак різні образи суттєво відрізняються між 
собою за можливостями цієї підтримки. Дійсно, при використанні ІММ правила 
видалення /- 1 образів з класу-еталону не змінить результатів розпізнавання. З іншого 
боку, якою б довгою не була послідовність з К образів, вона не зможе підтримати 
розпізнавання за відсутності стратегічної послідовності розміром / 1 присутності 
послідовності розміром т. 

При пониженні інформаційного покриття класу потрібно враховувати той 
факт, що якщо послідовність розміром / присутня у початковому класі, то у класі з 


меншим інформаційним покриттям 5" вона може зникнути, і навпаки, якщо її не 


було, то може з'явитися, однак з іншим розміром І". 

Розглянемо 1ММ правило. Визначальною перевагою даного правила є простота 
реалізації, а до недоліків можна віднести наступні |9): 

- нестійкість до похибок, створених викидами у навчаючій вибірці (викидом 
називають об'єкт певного класу, який знаходиться в оточенні об'єктів чужих 
класів); 

- повну залежність алгоритму від метрики між об'єктами та відсутність 
параметрів для налаштування за навчаючою вибіркою методами ковзаючого 
контролю або іншими; 

- низька якість класифікації. 

Попри вказані недоліки, 1ММ правило може мати суттєво кращу стійкість до 
ефекту пониження інформаційного покриття класів. Це пов'язано з тим, що даний 
алгоритм менш чутливий до розміру класів, ніж КМ. 

Отже, можливі два випадки розпізнавання: початкове розпізнавання пра- 
вильне або неправильне, і потрібно визначити ймовірність його успішності після 
пониження інформаційного покриття класів. Тобто для першого випадку потрібно 
визначити ймовірність того, що розпізнавання залишиться правильним, а для другого -- 
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ймовірність переходу розпізнавання з категорії неправильного в категорію правиль- 
ного. Подамо ймовірність правильного розпізнавання при застосуванні 1ММ правила 
як відношення подій, які підтримують успішне розпізнавання, до загальної кількості 
подій: 

5" 5" ж ж ж 

Р б сей КЗ ШЕК-з5) 0 МОчКоз) й 


ВІВ С зкоєдІНЮ (коєдІчЮГ |" () 


І, в іншому випадку. 


Пояснимо обчислення ймовірностей (1). Якщо К«зх і початкове роз- 
пізнавання було правильним, то пониження інформаційного покриття не призведе до 
погіршення результатів розпізнавання, тобто Р(К « 5 | Р(5) - 1) - 1. Вираз (1) означає 
ймовірність того, що розпізнавання буде успішним незалежно від того, яким чином 
буде зменшене інформаційне покриття своїх і чужих класів. Таким чином, ця 
ймовірність буде оцінкою зверху для точного (в сенсі комбінаторики) значення 
ймовірності правильного розпізнавання. Сам принцип оцінок зверху ймовірності 
успішного розпізнавання полягає в тому, що обчислення точного значення відповідної 
ймовірності вимагає застосування багатокрокового ітераційного процесу. 

Уточнити значення ймовірності (1) можна шляхом введення ще однієї оцінки 
зверху ймовірності того, що перед послідовністю і) СУК -К) після пониження 


І 


інформаційного покриття класів бази даних не буде знаходитись послідовність 
| т. у «і (У, - т). 
/ і 


Після виключення з моделі (рис. 1) стратегічної послідовності вона транс- 
формується до такого вигляду: 


ООО111001111000111...О001111... 
р о 


то кот, б то із т, К, 
м-'''ЄНИНН епепіппоопіпі'бпчн п" ' бГї .-ДФНВИВВИВБЬ5 
т) 


Рисунок 2 - Модель розпізнавання у вигляді двійкової послідовності при (/) я 9 


Таким чином, задача зводиться до визначення ймовірності успішного роз- 
пізнавання після пониження інформаційного покриття класів для випадків, коли 
початкове розпізнавання було неправильним. Ці ймовірності обчислюються п разів 
для пар послідовностей Їть Кк.) зараз іп . Отже, на даному етапі вихідною послідовністю 
з усіх одиниць буде послідовність розміром (. 

Означення. Показником виживання підпослідовності іт КІ) можна вважати 


ймовірність того, що в результаті можливих комбінацій входжень об'єктів з цієї 
підпослідовності в інші у ній залишиться хоча б один об'єкт з вихідної 
підпослідовності. Вказану ймовірність можна записати у вигляді: 


ж ж 
5 5 


ОР С 
Р(т,, КО з)ачо яз 


ж ж 


Ск Сі (2) 


1, в іншому випадку. 
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Якщо всі образи із свого класу в результаті їх сортування за величинами відстаней 
до тестового образу попали в межі списку (т, К), то вираз (2) означає ймовірність 


того, що в цьому списку будуть знаходитись такі образи із свого і такі з чужих 
класів, що розпізнавання пройде успішно. Ця ймовірність обчислюється рекурсивно- 
ітераційним способом на основі підпослідовностей 1К,,т,): 
РИ Ок) я (т) з ?) з РІЙ Ок) я Р т) з б) з 
Сн | Се 
Сі Са 
Р Ок) я о) я (т) є 9 (т) « 2) з 
РК) я ДЮ) я Є) Р(т,) є Є (т,) - 2) з 
Сакс | і 


5" 5" 
Ста Си 


Кк-К2а5,т-т 25); 


К-(кчь)25,т-(т,-т,) 25); (3) 


Р (ФК ж та з Є) а Р (у Ки я РИ Мо з 2) - 


5" 5" 
у к-Ук, 
Ро к-Указ,т-У т, 25". 
5 5 
Сік Сі і і 


У формулі (3) значення п визначається умовами 5 - / - Ук 25 та5- Ут, 25, 
і і 


оскільки всі подальші ймовірності Р(:) дорівнюватимуть 1. Добуток усіх імовір- 
ностей (3) є глобальною ймовірністю правильного розпізнавання. 


Висновки 


На основі запропонованого комбінаторного підходу можна всебічно дослідити 
найпростіший із метричних класифікаторів -- 1ММ класифікатор. Потенційно можливий 
ступінь стиску класу визначається результатами розпізнавання початкового (нестис- 
нутого) класу. Тому за допомогою комбінаторного підходу можна оцінити 
вірогідність коректної роботи алгоритму розпізнавання як здатності зберігати свої 
параметри при зменшенні інформаційного покриття класів. Вказаний підхід не 
враховує ймовірності отримання тих чи інших початкових результатів розпізнавання, 
а працює лише на основі зареєстрованих апріорних даних. 
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Б.Е. Капустий, Б.П. Русьн, В.А. Таянов 

Комбинаторная оценка влияния уменьшения информационного покрьтия классов 

на обобщающую особенность 1ХХ алгоритмов классификации 

В работе предложен комбинаторньй подход к определению влияния уменьшения размерности классов 
на вероятность правильного распознавания при использованиий 1ММ решающего правила. Результатьт 
распознавания для каждого контрольного обьгекта считаются известньтми до понижения размеров 
классов базьт данньх. Решена задача определения вероятности того, что правильноєе распознаваниє 
сохранится после понижения размерности классов, а неправильное станет правильньм. 


В. Хе. Каризій, В.Р. Кизуп, У.А. Тауапоу 

Іп із рарег Ше сотбіпаїогіа! арргоасіб їог дейпійоп ої (Бе сіа85 5і7е гедисійоп іпПиєпсе оп соттесі 
тесобпійоп ргобабійсу уубеп опе ц5е5 1ММ сіа55іПег. ТВБе гесобпійоп ге5иів аге Гагаіаг Беїоге дагабазе 
сІаз5 512е гедисййоп Гог еуегу Іе5і обіесі. Тре ргобабішіу Ба гесоєпійоп 5у5іега Ба5 ресиПагіїу їо гекаїп Пе 
гесоєпійоп гаїе айег сіаз5 5176 гедисіїоп Ба5 Бееп декегтіпей. ТВе ргобарбійу дейпійоп са5к Шаї пебайує 
гесобпійоп ге5иііз айег сІіа55 5176 гедисіїоп ул Бесоте робійує Паз а5о Беєп 50Їуеа. 


Стаття надійшла до редакції 14.01.2008. 
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